扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过,基于 RL 的后训练进展主要受限于自回归的大语言模型(LLM),它们通过从左到右的序列推理来运行。
当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过,基于 RL 的后训练进展主要受限于自回归的大语言模型(LLM),它们通过从左到右的序列推理来运行。
刚刚,Kimi团队上新了!
Kimi 开放平台的朋友们,基于 Moonshot AI 一年来的技术积累和性能优化,我们已经在北京时间 2025 年 04 月 07 日 0 点对 Kimi 开放平台提供的模型推理服务进行价格调整,具体调整方案如下:
北京时间今天凌晨,Kimi 与清华大学合作研发的 Mooncake 项目技术报告获得计算机存储领域顶会 FAST 2025「最佳论文」奖。Mooncake 是月之暗面 Kimi 的底层推理服务平台。
就在本周,Kimi 的新模型打开了强化学习 Scaling 新范式,DeepSeek R1 用开源的方式「接班了 OpenAI」,谷歌则把 Gemini 2.0 Flash Thinking 的上下文长度延伸到了 1M。1 月 24 日上午,百川智能重磅发布了国内首个全场景深度思考模型,把这一轮军备竞赛推向了高潮。
赶在放假前,支棱起来的国产 AI 大模型厂商井喷式发布了一大堆春节礼物。前脚 DeepSeek-R1 正式发布,号称性能对标 OpenAI o1 正式版,后脚 k1.5 新模型也正式登场,表示性能做到满血版多模态 o1 水平。
今天是个好日子,DeepSeek 与 Kimi 都更新了最新版的推理模型,吸引了广泛关注。与此同时,谷歌 DeepMind、加州大学圣地亚哥分校、阿尔伯塔大学的一篇新的研究论文也吸引了不少眼球,并直接冲上了 Hugging Face 每日论文榜第一(1 月 20 日)。
来了来了,月之暗面首个「满血版o1」来了!这是除OpenAI之外,首次有多模态模型在数学和代码能力上达到了满血版o1的水平。
Kimi新模型来袭,且发布即上线可用!
国产大模型,正在引领 AI 技术新方向。 今天上午,月之暗面 Kimi 正式发布了视觉思考模型 k1,并已经上线了最新版的网页版以及安卓和 iOS APP。